智能论文笔记

ReDDIT: Regret Detection and Domain Identification from Text

Fazlourrahman Balouchzahi , Sabur Butt , Grigori Sidorov , Alexander Gelbukh

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-14

In this paper, we present a study of regret and its expression on social media platforms. Specifically, we present a novel dataset of Reddit texts that have been classified into three classes: Regret by Action, Regret by Inaction, and No Regret. We then use this dataset to investigate the language used to express regret on Reddit and to identify the domains of text that are most commonly associated with regret. Our findings show that Reddit users are most likely to express regret for past actions, particularly in the domain of relationships. We also found that deep learning models using GloVe embedding outperformed other models in all experiments, indicating the effectiveness of GloVe for representing the meaning and context of words in the domain of regret. Overall, our study provides valuable insights into the nature and prevalence of regret on social media, as well as the potential of deep learning and word embeddings for analyzing and understanding emotional language in online text. These findings have implications for the development of natural language processing algorithms and the design of social media platforms that support emotional expression and communication.

translated by 谷歌翻译

PolyHope: Two-Level Hope Speech Detection from Tweets

Fazlourrahman Balouchzahi , Grigori Sidorov , Alexander Gelbukh

分类：自然语言处理 | 人工智能 | 机器学习

2022-10-25

Hope is characterized as openness of spirit toward the future, a desire, expectation, and wish for something to happen or to be true that remarkably affects human's state of mind, emotions, behaviors, and decisions. Hope is usually associated with concepts of desired expectations and possibility/probability concerning the future. Despite its importance, hope has rarely been studied as a social media analysis task. This paper presents a hope speech dataset that classifies each tweet first into "Hope" and "Not Hope", then into three fine-grained hope categories: "Generalized Hope", "Realistic Hope", and "Unrealistic Hope" (along with "Not Hope"). English tweets in the first half of 2022 were collected to build this dataset. Furthermore, we describe our annotation process and guidelines in detail and discuss the challenges of classifying hope and the limitations of the existing hope speech detection corpora. In addition, we reported several baselines based on different learning approaches, such as traditional machine learning, deep learning, and transformers, to benchmark our dataset. We evaluated our baselines using weighted-averaged and macro-averaged F1-scores. Observations show that a strict process for annotator selection and detailed annotation guidelines enhanced the dataset's quality. This strict annotation process resulted in promising performance for simple machine learning classifiers with only bi-grams; however, binary and multiclass hope speech detection results reveal that contextual embedding models have higher performance in this dataset.

translated by 谷歌翻译

Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2020

Maaz Amjad , Grigori Sidorov , Alisa Zhila , Alexander Gelbukh , Paolo Rosso

分类：自然语言处理

2022-07-25

本概述论文描述了乌尔都语语言中的假新闻检测的第一个共享任务。该任务是作为二进制分类任务的，目标是区分真实新闻和虚假新闻。我们提供了一个数据集，分为900个注释的新闻文章，用于培训，并进行了400篇新闻文章进行测试。该数据集包含五个领域的新闻：（i）健康，（ii）体育，（iii）Showbiz，（iv）技术和（v）业务。来自6个不同国家（印度，中国，埃及，德国，巴基斯坦和英国）的42个团队登记了这项任务。9个团队提交了他们的实验结果。参与者使用了各种机器学习方法，从基于功能的传统机器学习到神经网络技术。最佳性能系统的F得分值为0.90，表明基于BERT的方法优于其他机器学习技术

translated by 谷歌翻译

Overview of Abusive and Threatening Language Detection in Urdu at FIRE 2021

Maaz Amjad , Alisa Zhila , Grigori Sidorov , Andrey Labunets , Sabur Butta , Hamza Imam Amjad , Oxana Vitman , Alexander Gelbukh

分类：自然语言处理

2022-07-14

随着社交媒体平台影响的增长，滥用的影响变得越来越有影响力。自动检测威胁和滥用语言的重要性不能高估。但是，大多数现有的研究和最先进的方法都以英语为目标语言，对低资产品语言的工作有限。在本文中，我们介绍了乌尔都语的两项滥用和威胁性语言检测的任务，该任务在全球范围内拥有超过1.7亿扬声器。两者都被视为二进制分类任务，其中需要参与系统将乌尔都语中的推文分类为两个类别，即：（i）第一个任务的滥用和不滥用，以及（ii）第二次威胁和不威胁。我们提供两个手动注释的数据集，其中包含标有（i）滥用和非虐待的推文，以及（ii）威胁和无威胁。滥用数据集在火车零件中包含2400个注释的推文，测试部分中包含1100个注释的推文。威胁数据集在火车部分中包含6000个注释的推文，测试部分中包含3950个注释的推文。我们还为这两个任务提供了逻辑回归和基于BERT的基线分类器。在这项共同的任务中，来自六个国家的21个团队注册参加了参与（印度，巴基斯坦，中国，马来西亚，阿拉伯联合酋长国和台湾），有10个团队提交了子任务A的奔跑，这是虐待语言检测，9个团队提交了他们的奔跑对于正在威胁语言检测的子任务B，七个团队提交了技术报告。最佳性能系统达到子任务A的F1得分值为0.880，子任务为0.545。对于两个子任务，基于M-Bert的变压器模型都表现出最佳性能。

translated by 谷歌翻译

UrduFake@FIRE2021: Shared Track on Fake News Identification in Urdu

Maaz Amjad , Sabur Butt , Hamza Imam Amjad , Grigori Sidorov , Alisa Zhila , Alexander Gelbukh

分类：自然语言处理

2022-07-11

这项研究报告了第二个名为Urdufake@Fire2021的共享任务，以识别乌尔都语语言的假新闻检测。这是一个二进制分类问题，在其中，任务是将给定的新闻文章分为两类：（i）真实新闻，或（ii）假新闻。在这项共同的任务中，来自7个不同国家（中国，埃及，以色列，印度，墨西哥，巴基斯坦和阿联酋）的34个团队注册参加了共同的任务，18个团队提交了他们的实验结果，11个团队提交了他们的技术报告。所提出的系统基于各种基于计数的功能，并使用了不同的分类器以及神经网络体系结构。随机梯度下降（SGD）算法的表现优于其他分类器，并达到0.679 F-SCORE。

translated by 谷歌翻译

Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021

Maaz Amjad , Sabur Butt , Hamza Imam Amjad , Alisa Zhila , Grigori Sidorov , Alexander Gelbukh

分类：自然语言处理 | 人工智能

2022-07-11

在当代世界中，自动检测假新闻是一项非常重要的任务。这项研究报告了第二项共享任务，称为Urdufake@fire2021，以识别乌尔都语中的假新闻检测。共同任务的目的是激励社区提出解决这一至关重要问题的有效方法，尤其是对于乌尔都语。该任务被视为二进制分类问题，将给定的新闻文章标记为真实或假新闻文章。组织者提供了一个数据集，其中包括五个领域的新闻：（i）健康，（ii）体育，（iii）Showbiz，（iv）技术和（v）业务，分为培训和测试集。该培训集包含1300篇注释的新闻文章 - 750个真实新闻，550个假新闻，而测试集包含300篇新闻文章 - 200个真实，100个假新闻。来自7个不同国家（中国，埃及，以色列，印度，墨西哥，巴基斯坦和阿联酋）的34个团队注册参加了Urdufake@Fire2021共享任务。在这些情况下，有18个团队提交了实验结果，其中11个提交了技术报告，与2020年的Urdufake共享任务相比，这一报告要高得多，当时只有6个团队提交了技术报告。参与者提交的技术报告展示了不同的数据表示技术，从基于计数的弓形功能到单词矢量嵌入以及使用众多的机器学习算法，从传统的SVM到各种神经网络体系结构，包括伯特和罗伯塔等变形金刚。在今年的比赛中，表现最佳的系统获得了0.679的F1-MACRO得分，低于过去一年的0.907 F1-MaCro的最佳结果。诚然，尽管过去和当前几年的培训集在很大程度上重叠，但如果今年完全不同，则测试集。

translated by 谷歌翻译

Mental Illness Classification on Social Media Texts using Deep Learning and Transfer Learning

Iqra Ameer , Muhammad Arif , Grigori Sidorov , Helena Gòmez-Adorno , Alexander Gelbukh

分类：机器学习 | 自然语言处理

2022-07-03

鉴于当前全球的社交距离限制，大多数人现在使用社交媒体作为其主要交流媒介。因此，数百万患有精神疾病的人被孤立了，他们无法亲自获得帮助。他们越来越依赖在线场地，以表达自己并寻求有关处理精神障碍的建议。根据世界卫生组织（WHO）的说法，大约有4.5亿人受到影响。精神疾病（例如抑郁，焦虑等）非常普遍，并影响了个体的身体健康。最近提出了人工智能（AI）方法，以帮助基于患者的真实信息（例如，医疗记录，行为数据，社交媒体利用等），包括精神病医生和心理学家在内的心理健康提供者。 AI创新表明，在从计算机视觉到医疗保健的众多现实应用应用程序中，主要执行。这项研究分析了REDDIT平台上的非结构化用户数据，并分类了五种常见的精神疾病：抑郁，焦虑，双相情感障碍，ADHD和PTSD。我们培训了传统的机器学习，深度学习和转移学习多级模型，以检测个人的精神障碍。这项工作将通过自动化检测过程并告知适当当局需要紧急援助的人来使公共卫生系统受益。

translated by 谷歌翻译

Rosenblatt's first theorem and frugality of deep learning

A. N. Kirdin , S. V. Sidorov , N. Y. Zolotykh

分类：机器学习 | 人工智能

2022-08-29

首先，罗森布拉特（Rosenblatt）关于浅网络无所不能的定理指出，如果培训集中没有差异，那么基本感知器可以解决任何分类问题。 Minsky和Papert认为对神经输入有限制的基本感知：有界数的连接或隐藏层的每个神经元的接收场的相对较小的接收场直径。他们证明，在这些约束下，基本的感知者无法解决一些问题，例如输入图像的连接性或像素中的像素的奇偶校验。在本说明中，我们证明了Rosenblatt在工作中的首次定理，展示了基本知名度如何解决旅行迷宫问题的版本，并分析了该解决方案的复杂性。我们还针对同一问题构建了深层网络算法。它更有效。浅网络在隐藏层（Rosenblatt的$ a $ emements）上使用指数级的神经元，而对于深网，第二阶多项式复杂性就足够了。我们证明，对于同一复杂的问题，深网可能会小得多，并在这种效果背后揭示了一种启发式。

translated by 谷歌翻译

Revisiting Information Cascades in Online Social Networks

Michael Sidorov , Dan Vilenchik

分类：机器学习

2022-08-01

现在，民间传说要了解在线社交网络（OSN）平台中用户的活动模式，需要查看他的朋友或他所跟随的朋友。普遍的看法是，这些朋友会对用户产生影响，从而影响他的决定是否重新分享内容。呈现这种直觉，开发了各种模型，以预测信息在OSN中的传播方式，类似于感染在人群中的传播方式。在本文中，我们重新审视了这个世界观点并得出新的结论。给定一组用户$ v $，我们研究了预测用户$ u \ in v $中是否会在以下时间窗口中通过v $中的某些$ v \在v $中重新分享内容的任务。 $ v $在上一个时间窗口中。我们为此任务设计了几种算法，从仅学习$ u $ u $的条件概率分布的简单贪婪算法，忽略了$ v $的其余部分，到卷积神经网络基于卷积的神经网络算法，该算法接收了所有$ $的活动的活动v $，但没有明确收到社交链接结构。我们在Twitter收集的四个数据集上测试了我们的算法，每个数据集围绕2020年的另一个流行主题进行了旋转。在四个数据集中，最佳性能，平均F1分数为0.86，是通过卷积神经网络实现的。简单，社交链接无知的算法的平均F1得分为0.78。

translated by 谷歌翻译

MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence using Federated Evaluation

Alexandros Karargyris , Renato Umeton , Micah J. Sheller , Alejandro Aristizabal , Johnu George , Srini Bala , Daniel J. Beutel , Victor Bittorf , Akshay Chaudhari , Alexander Chowdhury

分类：机器学习

2021-09-29

医疗AI通过支持基于证据的医学实践，个性化患者治疗，降低成本以及改善提供者和患者体验，推进医疗保健的巨大潜力。我们认为解锁此潜力需要一种系统的方法来衡量在大规模异构数据上的医疗AI模型的性能。为了满足这种需求，我们正在建立Medperf，这是一个开放的框架，用于在医疗领域的基准测试机器学习。 Medperf将使联合评估能够将模型安全地分配给不同的评估设施，从而赋予医疗组织在高效和人类监督过程中评估和验证AI模型的性能，同时优先考虑隐私。我们描述了当前的挑战医疗保健和AI社区面临，需要开放平台，Medperf的设计理念，其目前的实施状态和我们的路线图。我们呼吁研究人员和组织加入我们创建Medperf开放基准平台。

translated by 谷歌翻译